thinkingmachine

小模型训练效率狂飙100倍！Thinking Machine推“在线策略蒸馏”，OpenAI前CTO亲自点赞

小模型训练效率狂飙100倍！Thinking Machine推“在线策略蒸馏”，OpenAI前CTO亲自点赞

近日，AI新锐团队Thinking Machine发布突破性训练方法——在线策略蒸馏（On-Policy Distillation），让小模型在特定任务上的训练效率提升高达50至100倍。该成果一经公布，即获前OpenAI首席技术官Mira Murati亲自转

machine thinki thinkingmachine 2025-10-28 12:23 7

Thinking Machine新研究刷屏！结合RL微调，小模型训练更具性价比

Thinking Machine新研究刷屏！结合RL微调，小模型训练更具性价比

根据Mira Murati的提炼，原来他们提出了一种让小模型更懂专业领域的LLM（大语言模型）后训练方法——On-Policy Distillation （在线策略蒸馏）。

machine rl thinkingmachine thi 2025-10-28 10:13 8

Thinking Machine新研究刷屏！结合RL+微调，小模型训练更具性价比

Thinking Machine新研究刷屏！结合RL+微调，小模型训练更具性价比

根据Mira Murati的提炼，原来他们提出了一种让小模型更懂专业领域的LLM（大语言模型）后训练方法——On-Policy Distillation （在线策略蒸馏）。

machine rl thinkingmachine thi 2025-10-28 09:26 28